Conceptos de Arquitectura de Computadoras (resumido de William Stallings) (página 2)

Enviado por Juan Ramallo

Partes: 1, 2

Segmentación de cauce,
introducción del paralelismo en un programa secuencial
constituido por instrucciones de máquina

Múltiples procesadores, cubre
diferentes organizaciones y objetivos

Arquitectura de computador de
repertorio reducido de instrucciones

Elementos principales de los diseños
de un RISC son:

Gran número de registros de uso
general, tecnología de compiladores para optimizar el
uso de los registros
Repertorio de instrucciones limitado y
sencillo
Énfasis en la
optimización de la segmentación de
instrucciones

Características de la
ejecución de instrucciones y los partidarios
RISC:

Operaciones realizadas, funciones que
lleva a cabo el procesador y su interacción con la
memoria, algunas instrucciones HLL conducen a muchas
operaciones de código máquina
Operandos, mayor cantidad de variables
escalares locales que constantes enteras y
matrices/estructuras
Llamadas a procedimientos, son las
operaciones que consumen más tiempo en programas HLL
compilados, el número de parámetros y variables
que manejan un procedimiento y la profundidad de anidamiento
son aspectos importantes; según el estudio de
Tanenbaum, el 98 por ciento de los procedimientos llamados
dinámicamente se les pasaba menos de seis argumentos y
el 92 por ciento de ellos usaban menos de seis variables
escalares locales

Al utilizar un amplio banco de
registros existieron dos aproximaciones:

Aproximación por
software, consiste en confiar al compilador la
maximización del uso de los registros el compilador
intentará asignar registros a las variables que se
usen más en un período de tiempo dado; requiere
el uso de sofisticados algoritmos de análisis de
programas.
Aproximación por
hardware, consiste en usar más registros de
manera que puedan mantenerse en ellos más variables
durante períodos de tiempo más
largos.

Ventanas de registros

El uso de muchos registros debería
reducir la necesidad de acceder a memoria, el objetivo del
diseño es organizar los registros de tal modo que se
alcance esa meta. En un procedimiento típico, se emplean
pocos parámetros de llamada y variables locales, y la
profundidad de activación de procedimientos es
pequeña. Para aprovechar estas propiedades se usan
múltiples conjuntos pequeños de registros, cada uno
asignado a un procedimiento distinto. Una llamada a un
procedimiento hace que el procesador conmute
automáticamente a una venta de registros distinta de
tamaño fijo en lugar de salvaguardar los registro en
memoria. Las ventanas de procedimientos adyacentes están
parcialmente solapadas para permitir el paso de
parámetros. La ventana se divide en tres partes o
áreas de tamaño fijo:

1. Registros de parámetros
que contienen parámetros pasados al procedimiento
actual desde el que lo llamó y los resultados a
devolver al que lo llamó
2. Registros locales que se usan
para variables locales
3. Registros temporales que se
usan para intercambiar parámetros y resultados con el
siguiente nivel más bajo (el procedimiento llamado por
el procedimiento en curso)

Los registros temporales de un nivel son
físicamente los mismos que los registros de
parámetros del nivel más bajo adyacente. Este
solapamiento posibilita que los parámetros se pasen sin
que exista una transferencia de datos real. Se deduce que en un
banco de registros de N ventanas puede contener solo N-1
activaciones de procedimientos, para N no muy grande.

Variables globales

El compilador asigna posiciones de
memoria a las variables declaradas como globales en un HLL y
todas las instrucciones de máquina que referencien a
esas variables usen operandos referenciados en memoria. Esto
es ineficiente si se accede frecuentemente.
Incorporar al procesador un conjunto de
registros globales, registros fijos en cuanto a su
número y accesibles por todos los procedimientos,
conlleva un hardware añadido que se encarga de adaptar
la división en el direccionamiento de los registros ya
que se consideran que desde el 0 al 7 indican registros
globales únicos y el resto pueden transformarse para
seleccionar los registros físicos de la ventana en
curso. El compilador debe decidir qué variables
globales deben ser asignadas a registros.

Amplio banco de registros frente a una
caché

El banco de registros organizado en
ventanas funciona como un buffer pequeño y rápido
que contiene un subconjunto de todas las variables que
probablemente se usen más, se comporta muy similar que una
memoria caché (aunque este banco es más
rápido)

Banco de registros amplio	Caché
Todos los datos escalares locales	Datos escalares locales recientemente usados
Variables individuales	Bloques de memoria
Variables globales asignadas por el compilador	Variables globales usadas recientemente
Salvaguarda/restauración basadas en la profundidad de anidamiento	Salvaguarda/restauración basadas en el algoritmo de reemplazo
Direccionamiento a registros	Direccionamiento a memoria

Incluso en el caso de que la caché
sea tan rápida como el banco de registros, el tiempo de
acceso será considerablemente mayor, porque para
referenciar una posición de memoria en la caché se
necesita un dirección de memoria completa y la complejidad
de estar operación depende del modo de direccionamiento.
En conclusión, el banco de registros basado en ventanas es
superior para datos escalares locales, no tanto para los
registros globales dado que la caché es capaz de manipular
tanto variables globales como locales. Un banco de registros
puede hacer un uso ineficiente del espacio ya que no todos los
procedimientos necesitarán todo el espacio de ventana
asignado a ellos, así mismo la caché tiene el
problema de que los datos se leen por bloques que tienen algo o
mucho que no se usará.

Optimización de registros basada
en el compilador P497

Cuando se dispone de un pequeño
número de registros (16-32), el uso optimizado de ellos es
responsabilidad del compilador. En HLL no se tiene referencias
explícitas a los registros. El objetivo del compilador es
mantener en registros en lugar de en memoria los operandos
necesarios para tantos cálculos como sea posible y
minimizar las operaciones de carga y almacenamiento. Cada
cantidad del programa candidata para residir en un registro se
asigna a un registro simbólico o virtual, el compilador
entonces asigna el número ilimitado de registros
simbólicos a un número fijo de registros reales.
Los registros virtuales cuya utilización no se solape
pueden compartir el mismo registro real. Si en una parte del
programa hay más cantidades a tratar que registros reales,
algunas de las cantidades se asignan a posiciones de memoria. Lo
esencial de la optimización es decidir qué
cantidades tienen que ser asignadas a registros en un determinado
punto del programa, la técnica más usada en RISC se
conoce como coloreado de grafos, la cual procede de la
topología.

¿Por qué
CISC?

Repertorios de instrucciones más
ricos, instrucciones más complejas, todo esto motivado por
el deseo de simplificar los compiladores y de mejorar las
prestaciones. Si existen instrucciones máquina que se
parezcan a sentencias del HLL la tarea del escritor de
compiladores se simplifica. Pero es difícil descubrir
casos que se ajusten perfectamente a la construcción. Otra
esperanza era que los CISC produzcan programas más
pequeños y más rápidos. Los programas
más pequeños ocupan menos memoria, pero como la
memoria es tan barata hoy, esto no es una gran ventaja. Tiene
mayor importancia el hecho de que programas más
pequeño mejoren las prestaciones: hay que captar menos
bytes de instrucciones y los programas más pequeños
ocupan menos páginas reduciendo los fallos de
página. Comparando con un RISC, el programa para CISC
puede ser más corto (tiene menos instrucciones) pero no
necesariamente debe ocupar menos bits de memoria. El otro factor
que motivaba a CISC era que le ejecución de instrucciones
fuera más rápida, pero debido a que la unidad de
control completa debe hacerse más compleja, y/o la memoria
de control del microprograma ha de hacerse más grande,
para acomodar un repertorio más rico, todo esto aumenta el
tiempo de ejecución de las instrucciones
sencillas.

Características del RISC
P501

Características comunes del
RISC:

Una instrucción por
ciclo, esto es una instrucción máquina
cada ciclo máquina; el ciclo máquina es el
tiempo que se tarda en captar dos operandos desde dos
registros, realizar una operación de la ALU y
almacenar el resultado en un registro. Como no hay que
acceder a la memoria de control de microprograma durante la
ejecución esto hace más rápida la
ejecución.
Operaciones registro a
registro, menos LOAD y STORE para acceder a memoria, el
resto de operaciones son todas entre registros. Un repertorio
RISC puede incluir sólo una o dos instrucciones
ADD
Modos de direccionamiento
sencillos, casi todas las instrucciones RISC usan
direccionamiento sencillo a registro, aunque se pueden
incluir varios modos adicionales y otros modos más
complejos se pueden sintetizar por un software a partir de
los simples
Formato de instrucción
sencillos, generalmente se usa un formato o unos pocos,
la longitud de las instrucciones es fija y alineada en los
límites de una palabra.

Características CISC frente a
RISC P504

Un RISC clásico:

1. Un único tamaño
de instrucción
2. Ese tamaño es
típicamente cuatro bytes
3. Pocos modos de direccionamiento
de datos, típicamente menor que cinco.
4. No se usa direccionamiento
indirecto
5. No hay operaciones que combinen
carga/almacenamiento con cálculos
aritméticos
6. No se direcciona más de
un operando de memoria por instrucción
7. Las operaciones de
carga/almacenamiento no admiten una alineación de
datos arbitraria
8. Un número máximo
de usos de la unidad de gestión de memoria de una
dirección de dato en cada
instrucción
9. El número de bits de un
campo designador de registro entero es de cinco o más
bits.
10. El número de bits de un
campo designador de registro de coma flotante es de cuatro o
más

Muchos diseños incluyen
características de RISC y CISC: PowerPC y Pentium
II

Clase 7

Memoria
P104

La memoria de un computador tiene una
organización jerárquica. En el nivel superior (el
más cercano al procesador) están los registros del
procesador, luego uno o más niveles de caché (L1,
L2, etc.), le sigue la memoria principal (construida de memoria
dinámicas de acceso aleatorio (DRAM). Todas estas son
memorias internas del computador. La jerarquía sigue con
la memoria externa, siendo el siguiente nivel un disco duro fijo
y uno o más niveles de soportes extraíbles como
discos ópticos, cintas, entre otros. A medida que
descendemos en la jerarquía de memoria disminuye el coste
por bit, aumenta la capacidad y crece el tiempo de acceso. La
estrategia es organizar los datos y los programas en memoria de
manera que las palabras de memoria necesarias estén
normalmente en la memoria más rápida.

Características de los sistemas
de memoria

Ubicación indica si la
memoria es interna o externa al computador.

Capacidad se expresa en
términos de bytes o de palabras para las memorias
internas.

Unidad de transferencia es igual
al número de líneas de entrada/salida de datos del
módulo de memoria, para memorias internas.

Palabra, es la unidad natural
de organización de la memoria. Su tamaño suele
coincidir con el número de bits utilizados para
representar números y con la longitud de las
instrucciones.
Unidades direccionables, es la
palabra. Sin embargo muchos de los sistemas permiten
direccionar a nivel de bytes.
Unidad de transferencia, para
la memoria principal es el número de bits que se leen
o escriben en memoria a la vez. No tiene por qué
coincidir con una palabra o con una unidad direccionable.
Para la memoria externa los datos se transfieren en bloques,
unidades más grandes que la palabra.

Método de acceso con las
siguientes variantes:

Acceso secuencial, la memoria
se organiza en unidades de datos llamadas registros, el
acceso deber realizarse con una secuencia lineal
específica. Utiliza mecanismo de lectura/escritura.
Tiempo de acceso variable.
Acceso directo, los bloques
individuales o registros tienen una dirección
única basada en su dirección física.
Utiliza un mecanismo de lectura/escritura. Tiempo de acceso
variable.
Acceso aleatorio, cada
posición direccionable de memoria tiene un
único mecanismo de acceso cableado físicamente.
El tiempo de acceso es constante e independiente de la
secuencia de accesos previos. La memoria principal y algunos
sistemas de caché son de acceso aleatorio.
Asociativa, es del tipo de
acceso aleatorio que permite comparar ciertas posiciones de
bits dentro de una palabra en busca de hacer coincidir unos
valores dados y hacer esto para todas las palabras
simultáneamente. Por tanto, una palabra es recuperada
basándose en una porción de su contenido en
lugar de su dirección. Lo usan las memorias
caché.

Prestaciones y sus tres
parámetros de medida:

Tiempo de acceso (latencia),
es el tiempo que tarda en situar el mecanismo de
lectura/escritura en la posición deseada; en el acceso
aleatorio es el tiempo que transcurre desde el instante en
que se presenta un dirección a la memoria hasta que el
dato, está disponible para su uso, o ha sido
memorizado.
Tiempo de ciclo de memoria, se
aplica a las de acceso aleatorio, consiste en el tiempo de
acceso y algún tiempo más que se requiere antes
de que pueda iniciarse un segundo acceso a memoria. Depende
de las características del bus del sistema y no del
procesador.
Velocidad de transferencia, es
la velocidad a la que se pueden transferir datos a, o desde,
una unidad de memoria.

Soportes físicos para las
memorias como ser semiconductoras, memorias de superficie
magnética, memorias ópticas y
magneto-ópticas.

Características
físicas, en memorias volátiles la
información se va perdiendo o desaparece cuando se
desconecta la alimentación. En las no volátiles la
información, una vez grabada, permanece sin deteriorarse
hasta que se modifique intencionadamente, no se necesita fuente
de alimentación para retener la
información.

Organización es su
disposición o estructura física en bits para formar
palabras.

Jerarquía de
memoria

Memorias con muchas capacidad son
más baratas pero a su vez más lentas. Las
más rápidas son más caras y de menor
capacidad. La solución a este dilema es no contar con un
solo componente de memoria sino emplear una jerarquía de
memoria. Cuando se desciende en la jerarquía
ocurre:

a. Disminuye el coste por
bit
b. Aumenta la capacidad
c. Aumenta el tiempo de
acceso
d. Disminuye la frecuencia de
acceso a la memoria por parte del procesador

La base para la condición d. es
conocido como localidad de las referencias que implica
lo siguiente: como el procesador trabaja principalmente con
agrupaciones fijas de referencias a memoria en periodos de tiempo
cortos, es posible organizar los datos a través de la
jerarquía de tal manera que el porcentaje de accesos a
cada nivel siguiente más bajo sea menor que al nivel
anterior; las agrupaciones actuales pueden ubicarse
temporalmente en el nivel 1, de vez en cuando una de las
agrupaciones del nivel 1 tendrá que ser devuelta al nivel
2 a fin de que deje sitio para que entre otra nueva
agrupación al nivel 1. Se puede aplicar a más de
dos niveles de memoria. Memoria caché
P111

Su objetivo es lograr que la velocidad de
la memoria sea lo más rápida posible, consiguiendo
al mismo tiempo un tamaño grande al precio de memorias
semiconductoras menos costosas. La caché contiene una
copia de partes de la memoria principal. Cuando el procesador
intenta leer una palabra de memoria, se hace una
comprobación para ver si la palabra está en la
caché; si es así, se entrega dicha palabra al
procesador, si no, un bloque de memoria principal (un cierto
número de palabras) se transfiere a la caché y
luego la palabra es entregada al procesador. La caché
consta de C líneas, cada línea contiene
K palabras, más una etiqueta de unos cuantos
bits. Tamaño de línea es el número de
palabras que hay en la línea.

Elementos de diseño de la
caché P114

Tamaño de caché:
cuanto más grande es la caché, mayor es el
número de puertas implicadas en direccionarla;
Cachés más grandes tienden a ser ligeramente
más lentas que las pequeñas. Imposible predecir un
tamaño óptimo.

Función de correspondencia:
Como hay menos líneas de caché que bloques de
memoria principal, se necesita un algoritmo que haga corresponder
bloques de memoria principal a líneas de caché.
Esto determina cómo se organiza la caché, se pueden
utilizar tres técnicas:

Correspondencia directa,
consiste en hacer corresponder cada bloque de memoria
principal a solo una línea posible de caché.
Usa una parte de la dirección del bloque de memoria
principal como número de línea en la
caché y esto proporciona una correspondencia o
asignación única de cada bloque de memoria
principal en la caché. Desventaja, hay una
posición concreta de caché para cada bloque
dado, por ello si un programa referencia repetidas veces a
palabra de dos bloques diferentes asignado en la misma
línea, dichos bloques se estarían
intercambiando continuamente en la caché,
provocaría una tasa de aciertos baja (vapuleo o
trashing).

Etiqueta

Índice, línea de
caché

Palabras

Correspondencia asociativa,
permite que cada bloque de memoria principal pueda cargarse
en cualquier línea de la caché. Hay
flexibilidad para que cualquier bloque sea reemplazado cuando
se va a escribir uno nueva en la caché. Desventaja,
requiere una compleja circuitería para examinar en
paralelo las etiquetas de todas las líneas de
caché.

Etiqueta

Palabras

Correspondencia asociativa por
conjuntos, la caché se divide en v
conjuntos, cada uno de k líneas. La
lógica de control de la caché interpreta un
dirección de memoria como tres campos: etiqueta,
conjunto y palabra. La etiqueta de una dirección de
memoria es mucho más corta y se compara solo con las
k etiquetas dentro de un mismo conjunto.

Etiqueta

Conjunto

Palabra

Algoritmos de sustitución:
una vez llena la caché, para introducir un nuevo bloque
debe sustituirse uno de los boques existentes. Para el caso de
correspondencia directa, solo hay una posible línea para
cada bloque particular y no hay elección posible. Para las
técnicas asociativas se requieren algoritmos de
sustitución. Tales algoritmos se implementan en hardware,
para así conseguir alta velocidad.

1. "Utilizado menos
recientemente", LRU (least-recently used): probalbmente
el más efectivo, se sustituye el bloque que se ha
mantenido en la caché por más tiempo sin haber
sido referenciado. Cuando una línea es refernciada se
pone a 1 su bit de USO y a 0 el de la otra línea del
mismo conjunto (para la asociativa por conjunto de dos
vías). Cuando va a transferirse un bloque al conjunto
se utiliza la línea cuyo bit de USO es 0.
2. "Primero en entrar-primero
en salir", FIFO: se sustituye aquel bloque que ha estado
más tiempo en la caché. Se puede implementar
mediante un técnica cíclica o buffer
circular.
3. "Utilizado menos
frecuentemente", LFU (least-frequently used): se
sustituye aquel bloque del conjunto que ha experimentado
menos referencias. Se puede implementar asociando un contador
a cada línea.
4. Aleatoria: no se basa
en el grado de utilización, simplemente selecciona una
línea al azar entre las posibles candidatas. Presenta
prestaciones ligeramente inferiores a un algoritmo basado en
la utlización.

Política de
escritura:

En acierto, cuando el dato es
existente:

1. Escritura inmediata:
todas las operaciones de escritura se hacen tanto en
caché como en memoria principal, asegurando que el
contenido de la memoria principal siempre sea válido.
Desventaja, genera un tráfico sustancial con la
memoria que puede originar un cuello de botella.
2. Post-escritura:
minimiza las escrituras en memoria. Las actualizaciones se
hacen solo en la caché. Se activa un bit ACTUALIZAR
asociado a la línea cuando se tiene una
actualización. Luego, cuando el bloque es sustituido,
es escrito en memoria principal si y solo si el bit
ACTUALIZAR está activo. Problema, se tienen porciones
de memoria principal que no son válidas, y los accesos
por parte de los módulos de E/S tendrán que
hacerse solo a través de la caché; esto
complica la circuitería y genera un cuello de botella
potencial.

En fallo, cuando el dato se
crea:

1. Write-allocate, la
información se lleva de la memoria principal a la
caché. Se sobrescribe en la caché
2. No write-allocate, El
bloque no se lleva a la memoria caché. Se escribe
directamente en la memoria principal

Clase 8

Buses del sistema
P75

Un computador está constituido por
un conjunto de unidades o módulos de tres tipos
elementales que se comunican entre sí (procesador,
memoria, E/S). La estructura de interconexión es el
conjunto de líneas que conectan los diversos
módulos.

Memoria, generalmente
constituidos por N palabras de la misma longitud.
Una palabra puede leerse de, o escribirse en la memoria. Se
indican mediante señales de control, leer y
escribir.
Módulo de E/S, puede
controlar un dispositivo externo, operaciones de lectura y
escritura. Puede enviar señales de interrupción
al procesador.
Procesador, lee instrucciones
y datos, escribe datos una vez los ha procesado, utiliza
ciertas señales para controlar el funcionamiento del
sistema. Puede recibir señales de
interrupción

Tipos de transferencia
necesarias:

Memoria a procesador, el procesador lee
una instrucción o un dato desde la memoria
Procesador a memoria, el procesador
escribe un dato en la memoria
E/S a procesador, el procesador lee
datos de un dispositivo de E/S a través de un
módulo de E/S
Procesador a E/S, el procesador
envía datos al dispositivo de E/S
Memoria a E/S y viceversa, un
módulo de E/S puede intercambiar datos directamente
con la memoria, sin pasar por el procesador utilizando el
acceso directo a memoria (DMA)

Interconexión con buses
P77

Un bus es un camino de comunicación
entre dos o más dispositivos. Al bus se conectan varios
dispositivos y cualquier señal transmitida por uno de esos
dispositivos está disponible para que los otros
dispositivos conectados al bus puedan acceder a ella. Solo un
dispositivo puede transmitir con éxito en un momento dado,
sino podrían las señales solaparse y
distorsionarse. Un bus está constituido por varios caminos
de comunicación o líneas. Cada línea es
capaz de transmitir señales binarias representadas por 1 y
por 0. Se puede transmitir una secuencia de dígitos
binario a través de una única línea. Se
pueden utilizar varias líneas del bus para transmitir
dígitos binarios simultáneamente (en paralelo, un
dato de 8 bits con ocho líneas del bus). Los computadores
poseen diferentes tipos de buses. El bus que conecta los
componentes principales del computador se denomina bus del
sistema.

Estructura del bus

Constituido usualmente por entre cincuenta
y cien líneas. A cada línea se le asigna un
significado o una función particular. Se clasifican tres
grupos funcionales de líneas: líneas de datos, de
direcciones y de control. Pueden existir líneas de
alimentación para suministrar energía a lo
módulos conectados al bus.

Líneas de datos,
proporcionan un camino para transmitir datos entre los
módulos del sistema. El conjunto de estas líneas se
le llama bus de datos. La anchura del bus de
datos es la cantidad de líneas que incluye (32 o cientos
de líneas). El número de líneas determina
cuántos bits se pueden transferir al mismo
tiempo.

Líneas de dirección,
se utilizan para designar la fuente o el destino del dato situado
en el bus de datos.

Líneas de control, se
utilizan para controlar el acceso y el uso de las líneas
de datos y de direcciones. Las señales de control
transmiten tanto ordenes como información de
temporización entre los módulos del sistema. Estas
señales indican la validez de los datos y las direcciones.
Por ejemplo, señal de escritura/lectura en memoria,
petición de interrupción, señales de
reloj.

Jerarquía de buses
múltiples P80

Si se conectan muchos dispositivos al bus
las prestaciones pueden disminuir, por dos causas
principales:

A más dispositivos conectados al
bus, mayor es el retardo de propagación. Este retardo
determina el tiempo que necesitan los dispositivos para
coordinarse en el uso del bus
El bus puede convertirse en un cuello
de botella a medida que las peticiones de transferencia
acumuladas se aproximan a la capacidad del bus. Se puede
resolver usando buses más anchos e incrementando la
velocidad a la que el bus transfiere los datos

La mayoría de los computadores
utilizan varios buses, organizados jerárquicamente. Un bus
local conecta el procesador a una memoria caché y se
pueden conectar también uno o más dispositivos
locales. El controlador de memoria caché conecta la
caché no solo al bus local sino también al bus de
sistema. Se usan buses de expansión para conectar
controladores de E/S al bus de sistema. La interfaz del bus de
expansión regula las transferencias de datos entre el bus
de sistema y los controladores conectados al bus de
expansión. Esto permite conectar al sistema una amplia
variedad de dispositivos de E/S y al mismo tiempo aislar el
trafico de información entre la memoria y el procesador
del tráfico correspondiente a las E/S.

Elementos de diseño de un bus
P82

Tipos de buses: se dividen en
dedicadas y multiplexadas. Una línea de bus dedicada
está permanente asignada a una función o a un
subconjunto físico de componente del computador. El
multiplexado en el tiempo es un método que usa las mismas
líneas para distintos usos. Ventaja del multiplexado es
que usa menos líneas, cosa que ahorra espacio y costes; la
desventaja es que se necesita una circuitería más
compleja en cada módulo, puede producirse una
reducción de las prestaciones por que cuando deben
compartir las mismas líneas no pueden producirse en
paralelo. La dedicación física se refiere al uso de
múltiples buses, cada uno de los cuales conecta solo un
subconjunto de módulos; una ventaja es su elevado
rendimiento por haber menos conflictos por el acceso al bus, y
una desventaja es el incremento en el tamaño y el costo
del sistema.

Método de arbitraje, se da
porque más de un módulo puede necesitar el control
del bus y solo una unidad puede transmitir a través del
bus en un instante dado. Se clasifican en centralizados o
distribuidos.

Centralizado, un único
dispositivo hardware (controlador del bus o árbitro)
es responsable de asignar tiempos en el bus. El dispositivo
puede estar en un módulo separado o ser parte del
procesador.
Distribuido, no existe un
controlador central, en su lugar, cada módulo dispone
de lógica para controlar el acceso y los
módulos actúan conjuntamente para compartir el
bus

En ambos métodos de arbitraje el
propósito es designar un dispositivo, el procesador o un
módulo de E/S como maestro del bus.

Temporización, hace
referencia a la forma en la que se coordinan los eventos en el
bus. Pueden ser síncrona o asíncrona.

Síncrona, la presencia
de un evento en el bus está determinada por un reloj.
El bus incluye una línea de reloj a través de
la que se transmite una secuencia en la que se alternan
intervalos regulares de igual duración a uno y a cero.
Un único intervalo a uno seguido de otro a cero se
conoce como ciclo de reloj o ciclo de bus.
Todos los dispositivos del bus pueden leer la línea de
reloj y todos los eventos empiezan al principio del ciclo de
reloj. Es más fácil de implementar y comprobar,
pero es menos flexible que la asíncrona.
Asíncrona, la presencia
de un evento en el bus es consecuencia y depende de que se
produzca un evento previo. Pueden compartir el bus una mezcla
de dispositivos lentos y rápidos, utilizando tanto las
tecnologías mas antiguas como las más
recientes, que en la síncrona no se puede ya que todos
los dispositivos debe utilizar la misma frecuencia de
reloj.

Anchura del bus, afecta a las
prestaciones del sistema: cuanto más ancho es el bus de
datos, mayor es el número de bits que se transmiten a la
vez. La anchura del bus de direcciones afecta a la capacidad del
sistema: cuanto más ancho es el bus de direcciones, mayor
es el rango de posiciones a las que se puede hacer
referencia.

Tipo de transferencia de datos,
todos los buses permiten tanto transferencias de escritura (dato
de maestro a esclavo) como de lectura (dato de esclavo a
maestro). En el caso de un bus con direcciones y datos
multiplexados, el bus se utiliza primero para especificar la
dirección y luego para transferir el dato. En una
operación de lectura, hay un tiempo de espera mientras el
dato se está captando del dispositivo esclavo para
situarlo en el bus. Tanto para lectura como escritura, puede
haber también un retardo si se usa algún
procedimiento de arbitraje para acceder al control del bus en el
resto de la operación. Algunos buses también
permiten transferencias de bloques de datos.

PCI P87

El bus PCI (Interconexión de
Componente Periférico) es un bus muy popular de ancho de
banda elevado, independiente del procesador, que se puede
utilizar como un bus de periféricos. El PCI proporciona
mejores prestaciones para los subsistemas de E/S de alta
velocidad. El PCI ha sido diseñado específicamente
para ajustarse, económicamente a los requisitos de E/S de
los sistemas actuales. Se implementa con muy pocos circuitos
integrados y permite que otros buses se conecten al bus PCI.
Utiliza temporización síncrona y un esquema de
arbitraje centralizado. Puede configurarse como un bus de 32 o 64
bits. Tiene 49 líneas de señal obligatorias, las
cuales se dividen en grupos funcionales:

Terminales de sistema, conformadas por
los terminales de reloj y de inicio.
Terminales de direcciones y datos,
incluye 32 líneas para datos y direcciones
multiplexadas en el tiempo. Las otras líneas se usan
para interpretar y validar las líneas de señal
correspondientes a los datos y las direcciones
Terminales de control de interfaz,
controlan la temporización de las transferencias y
proporcionan coordinación entre los que inician y los
destinatarios.
Terminales de arbitraje, no son
líneas compartidas, cada maestro del PCI tiene su par
propio de líneas que lo conectan directamente al
arbitro del bus PCI
Terminales para señales de
error, usadas para indicar errores de paridad u
otros

Además de 51 señales
opcionales:

Terminales de
interrupción
Terminales de soporte de
caché
Terminales de ampliación a bus
de 64 bits
Terminales de test

Ordenes, transferencia de datos y
arbitraje del PCI

La actividad del bus consiste en
transferencias entre elementos conectados al bus. Maestro es el
que inicia la transferencia.

La transferencia de datos en el bus PCI es
una transacción única que consta de una fase de
direccionamiento y una o más fases de datos.

Utiliza un arbitraje centralizado
síncrono en el que cada maestro tiene una única
señal de petición y cesión del bus, estas se
conectan a un árbitro central. El arbitraje se produce al
mismo tiempo que el maestro del bus actual está realizando
una transferencia de datos, por tanto no se pierden ciclos de bus
en realizar el arbitraje; esto es conocido como arbitraje
oculto o solapado.

Clase 9

Procesadores
superescalares P528

Un procesador superescalar es aquél
que usa múltiples cauces de instrucciones independientes.
Varios flujos de instrucciones se procesan
simultáneamente.

La supersegmentación aprovecha el
hecho de que muchas etapas del cauce realizan tareas que
requieren menos de medio ciclo de reloj.

La aproximación superescalar depende
de la habilidad para ejecutar múltiples instrucciones en
paralelo. El paralelismo en las instrucciones se refiere al grado
en el que, en promedio, las instrucciones de un programa se
pueden ejecutar en paralelo. Para maximizar el paralelismo se
usan técnicas de hardware u optimizaciones por el
compilador. Presenta cinco limitaciones:

Dependencia de datos verdadera, cuando
una instrucción necesita un dato que aún no
terminó de usar/resolver la anterior
instrucción
Dependencia relativa al procedimiento,
presencia de saltos, uso de instrucciones de longitud
variable
Conflicto en los recursos, es una pugna
de dos o más instrucciones por el mismo recurso al
mismo tiempo
Dependencia de salida
Antidependencia

Paralelismo en las instrucciones y
paralelismo de la máquina

Paralelismo en las instrucciones cuando las
instrucciones de una secuencia son independientes y por tanto
pueden ejecutarse en paralelo solapándose. Depende de la
frecuencia de dependencias de datos verdaderas y dependencias
relativas al procedimiento que haya en el código. El
paralelismo de la máquina es una medida de la capacidad
del procesador para sacar partido al paralelismo en las
instrucciones. Depende del número de instrucciones que
pueden captarse y ejecutarse al mismo tiempo (número de
cauces paralelos) y de la velocidad y sofisticación de los
mecanismo que usa el procesador para localizar instrucciones
independientes. El empleo de instrucciones con longitud fija,
como en un RISC, aumenta el paralelismo en las
instrucciones.

Políticas de emisión de
instrucciones

El procesador tiene que ser capaz de
identificar el paralelismo en las instrucciones y organizar la
captación, decodificación y ejecución de las
instrucciones en paralelo. El procesador intenta localizar
instrucciones más allá del punto de
ejecución en curso, que puedan introducirse en el cauce y
ejecutarse, hay tres ordenaciones importantes:

El orden en que se captan las
instrucciones
El orden en que se ejecutan las
instrucciones
El orden en que las instrucciones
actualizan los contenidos de los registros y de las
posiciones de memoria

La única restricción del
procesador, con respecto a la alteración de estos ordenes,
es que el resultado debe ser correcto. Categorías de las
políticas de emisión de instrucciones en los
procesadores superescalares:

Emisión en orden y
finalización en orden, emite instrucciones en el
orden exacto en que lo haría una ejecución
secuencial y escribe los resultados en ese mismo
orden.
Emisión en orden y
finalización desordenada, se usa en los
procesadores RISC escalares para mejorar la velocidad de las
instrucciones que necesitan ciclos. Con la
finalización desordenada puede haber cualquier
número de instrucciones e la etapa de ejecución
en un momento dado, hasta alcanzar el máximo grado de
paralelismo de la máquina. La finalización
desordenada necesita una lógica de emisión de
instrucciones más compleja que la finalización
en orden. Además es más difícil ocuparse
de las interrupciones y excepciones. El procesador debe
asegurarse que la reanudación tiene en cuenta que, en
el omento de la interrupción, algunas instrucciones
posteriores a la instrucción que provocó dicha
interrupción pueden haber finalizado ya.
Emisión desordenada y
finalización desordenada: con la emisión
en orden, el procesador solo decodificará
instrucciones hasta el punto de dependencia o conflicto. Un
buffer llamado ventana de instrucciones desacopla las etapas
del cauce de decodificación y ejecución,
entonces cuando un procesador termina de decodificar un
instrucción, la coloca en la ventana de instrucciones.
Ventajas, el procesador tiene capacidad de
anticipación, las instrucciones se emiten desde la
ventana de instrucciones sin tener en cuenta su orden en el
programa. El programa debe funcionar correctamente,
única restricción. Antidependencia, la segunda
instrucción destruye un valor que usa la primera
instrucción.

Renombramiento de
registros

Las dependencias de salida y las
antidependencias, por su parte, surgen porque los valores de los
registros no pueden reflejar ya la secuencia de valores dictada
por el flujo del programa; con el renombramiento de registros, el
hardware del procesador asigna dinámicamente los
registros, que están asociados con los valores que
necesitan las instrucciones en diversos instantes de tiempo.
Cuando la ejecución de una instrucción guarda un
resultado en registro, se almacena en un registro nuevo, se
asignan dinámicamente.

Predicción de saltos,
ejecución e implementación
superescalar

Con la llegada de RISC se exploró la
estrategia de salto retardado, la cual mantiene lleno el cauce
mientras el procesador capta un nueva secuencia de instrucciones.
Ocasiona problemas con la dependencias entre instrucciones, en el
ciclo de retardo. Los superescalares volvieron a las
técnicas de predicción de saltos anteriores a las
de los RISC, como la predicción de saltos estática,
o una predicción dinámica de saltos basada en el
análisis de la historia de los saltos.

El programa a ejecutar es una secuencia
lineal de instrucciones. El proceso de captación de
instrucciones, que incluye la predicción de saltos, se usa
para formar un flujo dinámico de instrucciones. Se
examinan las dependencias de este flujo, u el procesador puede
eliminar las que sean artificiales. El procesador envía
entonces las instrucciones a una ventana de ejecución. En
esta ventana, las instrucciones ya no forman un flujo secuencial
sino que están estructuradas de acuerdo a sus dependencias
de datos verdaderas. El procesador lleva a cabo la etapa de
ejecución de cada instrucción en un orden
determinado por las dependencias de datos verdaderas y la
disponibilidad de los recursos hardware. Por último las
instrucciones se vuelven a poner conceptualmente en un orden
secuencial y sus resultados se almacenan.

Elementos principales de un procesador
superescalar:

Estrategias de captación de
instrucciones que capten múltiples instrucciones al
mismo tiempo, prediciendo los resultados de los saltos
condicionales y captando más allá de
ellas.
Lógica para determinar
dependencias verdaderas entre valores de registros y
mecanismo para comunicar esos valores a donde sean necesarios
durante la ejecución
Mecanismos para iniciar o emitir
múltiples instrucciones en paralelo
Recursos para le ejecución en
paralelo de múltiples instrucciones, que incluyan
múltiples unidades funcionales segmentadas y
jerarquías de memoria capaces de atender
múltiples referencias a memoria
Mecanismos para entregar el estado del
procesador en el orden correcto

Clase 10

Procesamiento
paralelo P669

El uso de varios procesadores que puedan
ejecutar en paralelo una carga de trabajo data incrementa las
prestaciones de un sistema. Multiprocesadores simétricos y
los clusters, más comunes; sistemas de acceso no uniforme
a memoria, nuevo. Un SMP es un computador constituido
por varios procesadores similares interconectados mediante un bus
o algún tipo de estructura de conmutación. Cuando
en un único chip se implementan varios procesadores, se
habla de multiprocesador monochip. Los procesadores
multihebra consisten en repetir algunos componentes de
un procesador para que este pueda ejecutar varias hebras
concurrentemente. Un cluster es un grupo de computadoras
completos interconectados y trabajando juntos como un solo
recurso de cómputo. Computador completo significa que
puede funcionar autónomamente, fuera del cluster. Un
sistema NUMA es un multiprocesador de memoria compartida
en el que el tiempo de acceso de un procesador a una palabra de
memoria varía con la ubicación de la palabra en
memoria. Los procesadores vectoriales son procesadores
paralelos de propósito especifico, diseñados para
procesar eficientemente vectores o matrices de datos.

Tipos de sistemas
paralelos

Una secuencia de instrucciones y
una secuencia de datos (SISD): un único
procesador interpreta una única secuencia de
instrucciones para operar con los datos almacenados en una
única memoria. Los monoprocesadores.
Una secuencia de instrucciones y
múltiples secuencias de datos (SIMD): una
única instrucción máquina controla paso
a paso la ejecución simultánea y sincronizada
de un cierto número de elementos de proceso. Cada
elemento de proceso tiene una memoria asociada, de forma que
cada instrucción es ejecutada por cada procesador con
un conjunto de datos diferentes. Los procesadores vectoriales
y los matriciales.
Múltiples secuencias de
instrucciones y una secuencia de datos (MISD): se
transmite una secuencia de datos a un conjunto de
procesadores, cada uno de los cuales ejecuta una secuencia de
instrucciones diferente. Nunca ha sido
implementada.
Múltiples secuencias de
instrucciones y múltiples secuencias de datos
(MIMD): un conjunto de procesadores ejecuta
simultáneamente secuencias de instrucciones diferentes
con conjuntos de datos diferentes. Los SMP, clusters y los
sistemas NUMA.

Multiprocesadores simétricos
P672

1. Hay dos o más
procesadores similares de capacidades comparables.
2. Estos procesadores comparten la
memoria principal y las E/S y están interconectados
mediante un bus u otro tipo de sistema de
interconexión (tiempo de acceso a memoria
aproximadamente el mismo para todos los
procesadores)
3. Todos los procesadores
comparten los dispositivos de E/S, bien a través de
los mismos canales o mediante canales distintos que
proporcionan caminos de acceso al mismo
dispositivo.
4. Todos los procesadores pueden
desempeñar las mismas funciones.
5. El sistema está
controlado por un sistema operativo integrado que proporciona
la interacción entre los procesadores y sus programas
a los niveles de trabajo, tarea, fichero y datos.

Ventajas de un SMP frente a un
monoprocesador:

Prestaciones: si el trabajo
puede organizarse para ejecutarse en paralelo, entonces un
sistema con varios procesadores mejorará las
prestaciones que con uno solo del mismo tipo.
Disponibilidad: debido a que
todos los procesadores pueden realizar las mismas funciones,
un fallo en un procesador no hará que el computador se
detenga.
Crecimiento incremental: se
aumentan las prestaciones añadiendo más
procesadores
Escalado: los fabricantes
pueden ofrecer una gama variada de productos con precios y
prestaciones diferentes en función del número
de procesadores que configuran el sistema.

Bus de tiempo compartido

Es el mecanismo más simple para
construir un sistema multiprocesador.

Direccionamiento: debe ser
posible distinguir los módulos del bus par determinar
la fuente y el destino de los datos
Arbitraje: cualquier
módulo de E/S puede funcionar temporalmente como un
maestro. Utiliza algún tipo de esquema de
prioridad.
Tiempo compartido: cuando un
módulo está controlando el bus, los otros
módulos no tienen acceso al mismo y deben, si es
necesario, suspender su operación hasta que dispongan
del bus.

La organización del bus:

Simplicidad: la interfaz
física y la lógica de cada procesador para el
direccionamiento, el arbitraje y para compartir el tiempo del
bus es el mismo que el de un sistema con un solo
procesador
Flexibilidad: es sencillo
expandir el sistema conectando más procesadores al
bus
Fiabilidad: el bus es un medio
pasivo, y el fallo de cualquiera de los dispositivos
conectados no provocaría el fallo de todo el
sistema.

Principal desventaja, las prestaciones.
Todas las referencias a memoria pasan por el bus. La velocidad
del sistema está limitada por el tiempo de ciclo. Para
mejorar las prestaciones, es deseable equipar a cada procesador
de una memoria caché. Surge el problema de coherencia de
caché, resuelto por el hardware.

Coherencia de
caché

Las soluciones software de coherencia de
caché intentan evitar la necesidad de circuitería y
lógica hardware adicional dejando que el compilador y el
sistema operativo se encarguen del problema. Los mecanismo de
coherencias basados en el compilador realizan un análisis
del código y marcan los datos que pueden dar problemas al
pasar a caché; después el sistema operativo o el
hardware impiden que se pasen a caché los datos marcados
como no almacenables en caché. El enfoque más
sencillo es impedir que cualquier dato compartido se pase a
caché.

Las soluciones hardware se denominan
protocolos de coherencia de caché. Permiten reconocer en
tiempo de ejecución las situaciones de inconsistencias
potenciales. El problema se considera solo en el momento que
aparece. Uso más efectivo de las cachés. Mejora las
prestaciones en relaciones a las aproximaciones software. Reduce
la complejidad en el desarrollo del software.

Protocolos de directorio:
Recogen y mantienen la información acerca de
dónde residen las copias de las líneas. Tiene
un controlador centralizado que es parte del controlador de
memoria principal, y un directorio que se almacena en la
memoria principal, el cual contiene información de
estado global en relación con los contenido de las
diferentes cachés locales. Presentan un cuello de
botella central y el coste de comunicación entre los
controladores de las distintas cachés y el controlador
central es otra desventaja. Son efectivos en sistemas de gran
escala con múltiples buses.
Protocolos de sondeo:
Distribuyen la responsabilidad de mantener la coherencia de
caché entre todos los controladores de caché
del multiprocesador. Una caché debe reconocer cuando
un alinea de las que contiene está compartida con
otras cachés. Cuando se actualiza una línea de
caché compartida, debe anunciare a todas las otras
cachés mediante un mecanismo de difusión. Cada
controlador de caché es capaz de sondear o espiar la
red para observar las notificaciones que se difunden, y
reaccionar adecuadamente. Se usa la aproximación de
invalidar-si-escritura en multiprocesadores comerciales, se
marca el estado de cada línea de caché:
modificado, exclusivo, compartido o no-válido (se usan
dos bits adicionales).

Procesamiento multihebra y
multiprocesadores monochip

Con el procesamiento multihebra, la
secuencia de instrucciones se divide en secuencias más
pequeñas, denominadas hebras, que pueden ejecutarse en
paralelo. Un proceso es un programa en ejecución
en un computador:

Propiedad de recursos: dispone
de un espacio de direcciones virtuales para almacenar la
imagen del proceso, que consta del programa, los datos, la
pila, entre otros. En ocasiones, pueden poseer recursos como
la memoria principal, canales de E/S, dispositivos de E/S y
ficheros.
Planificación/ejecución: sigue
un camino de ejecución a través de uno o
más programas. Esta ejecución puede
entremezclarse con la de otros procesos

Conmutación de proceso, es
la operación que cambia el proceso que se está
ejecutando en el procesador por otro proceso. Almacena todos los
datos del primero y los reemplaza con la información del
segundo.

Hebra, es una unidad de trabajo
dentro de un proceso que se puede asignar al procesador. Se
ejecuta secuencialmente y puede interrumpirse para que el
procesador pase a ejecutar otra hebra.

Conmutación de hebra: el
control del procesador pasa de una hebra a otra dentro de un
mismo proceso. Es menos costosa que la conmutación de
procesos.

El procesamiento multihebra
explícito ejecutan concurrentemente instrucciones de
hebras explícitas diferentes, entremezclando instrucciones
de hebras diferentes en cauces compartidos o mediante
ejecución paralela y cauces paralelos. Y el procesamiento
multihebra implícito hace referencia a la ejecución
concurrente de varias hebras extraídas de un único
programa secuencial. Estas pueden ser definidas
estáticamente por el compilador o dinámicamente por
el hardware.

Un procesador multihebra debe proporcionar
un contador de programa distinto para cada una de las hebras que
puedan ejecutarse concurrentemente. Se trata cada hebra
separadamente y usa técnicas superescalares para optimizar
la ejecución de una hebra.

Clusters P694

Un cluster es un grupo de computadores
completos interconectados que trabajan conjuntamente como un
único recurso de cómputo, creándose la
ilusión de que se trata de una sola máquina.
Computador completo hace referencia a un sistema que puede
funcionar por sí solo, independientemente del cluster.
Beneficios:

Escalabilidad absoluta: un
cluster puede tener decenas de máquinas, cada una de
las cuales puede ser un multiprocesador. Es posible
configurar clusters grandes que incluso superan las
prestaciones de los computadores independientes más
potentes.
Escalabilidad incremental: un
cluster se configura de forma que sea posible añadir
nuevos sistemas al cluster en ampliaciones
sucesivas.
Alta disponibilidad: puesto
que cada nodo del cluster es un computador autónomo,
el fallo de uno, no significa la pérdida del
servicio.
Mejor relación
precio-prestaciones: es posible configurar un cluster
con mayor o igual potencia de cómputo que un
computador independiente a mucho menos costo.

Clusters frente a sistemas SMP
P700

Ambos constituyen configuraciones con
varios procesadores que pueden ejecutar aplicaciones con una alta
demanda de recursos.

Ventajas de un SMP:

Más fácil de gestionar y
configurar que un cluster
Está mucho más cerca del
modelo de computador de un solo procesador para el que
están disponibles casi todas las
aplicaciones
Necesita menos espacio
físico
Consume menos energía que un
cluster comparable
Son plataformas estables y bien
establecidas

Ventajas de los Clusters:

Superiores a los SMP en términos
de escalabilidad absoluta e incremental
Superiores en términos de
disponibilidad, todos los componentes del sistema pueden
hacerse altamente redundantes

Acceso no uniforme a
memoria

Acceso uniforma a memoria (UMA):
todos los procesadores pueden acceder a toda la memoria principal
utilizando instrucciones de carga y almacenamiento. El tiempo de
acceso es el mismo para cualquier región de la memoria. El
tiempo de acceso a memoria por parte de todos los procesadores es
el mismo. SMP es UMA.

Acceso no uniforme a memoria
(NUMA): todos los procesadores tienen acceso a todas las
partes de memoria principal utilizando instrucciones de carga y
almacenamiento. El tiempo de acceso a memoria depende de la
región a la que se acceda. Para procesadores distintos,
las regiones de memoria que son más lentas o más
rápidas son diferentes.

NUMA con coherencia de caché
(CC-NUMA): un computador NUMA en el que la coherencia de
caché se mantiene en todas las cachés de los
distintos procesadores.

Motivación

En un SMP existe un límite
práctico en el número de procesadores que pueden
utilizarse. Un esquema de caché reduce el tráfico
en el bus. A medida que aumentan los procesadores, el
tráfico en el bus también aumenta. A partir de
cierto momento, el bus pasa a ser el cuello de botella para las
prestaciones. En un cluster cada nodo tiene su propia memoria
principal privada y las aplicaciones no ven la memoria global.
NUMA retiene las características SMP y brinda
multiprocesamiento a gran escala. El objetivo de un computador
NUMA es mantener una memoria transparente desde cualquier parte
del sistema, al tiempo que se permiten varios nodos del
multiprocesador, cada uno con su propio bus u otro sistema de
interconexión interna.

Organización
CC-NUMA

Hay varios nodos independientes, cada uno
de los cuales es un SMP. Así cada nodo contiene varios
procesadores, cada uno con sus cachés L1 y L2, más
memoria principal. Los nodos se interconectan a través de
un medio de comunicación que podría ser
algún mecanismo de conmutación, un anillo o
algún tipo de red. Orden de acceso a memoria, cache L1 y
caché L2 son locales al procesador; memoria principal es
local al nodo. Toda la actividad de accesos a memoria es
automática y transparente al procesador y su
caché.

Organización y arquitectura de
computadoras – William Stallings – 7ma.
Edición

P234 = Página 234

Autor:

Juan Ramallo

Partes: 1, 2